[2023年6月7日号]個人的に気になったModern Data Stack情報まとめ
さがらです。
Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。
そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。
※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。
Modern Data Stack全般
Airbyte社によるState of Data 2023
Airbyte社がデータエンジニアリングに関わる886人にアンケートを行い、その内容をまとめたState of Data 2023が出ていました。
回答者のデータチームの人数、各分野でどの製品を使っているか、どこから情報を得ているか、など多くの情報が詰まっており面白いです!
lakeFS社によるThe State of Data Engineering 2023
lakeFS社によって昨今のデータエンジニアリングについてまとめられたレポート「The State of Data Engineering 2023」が出ていました。
Modern Data Stackに該当するようなSaaSだけでなくOSSについても広く言及されているので、各分野のトレンドを知るにはちょうど良いレポートだと思います。
Airbyte社によるData Modelingに関するブログ Part3
データのExtract~Loadを担ってくれるAirbyteが自社ブログで、データモデリングに関する3部作の3本目の記事を出していました。3本目では、どういったレイヤー分けを行ってデータを管理するのか、バッチとストリーミング・レイクハウスとデータウェアハウスなどのデータ基盤を構成する要素についての説明、といったモデリングに限らないデータ基盤全体に関する内容がまとめられています。
How To Implement Data Observability Like A Boss In 6 Steps
Monte Carlo社のMichael氏より、Data Observabilityを導入する際の6ステップについてまとめられた記事が出ていました。
データのユースケースの棚卸しと必要なパフォーマンスのベースラインの定義から始まり、データの品質管理とインシデント対応に関わるコストを出し…といったように、Data Observabilityのビジネスにおける必要性を出すところからステップを考えられているので、データ品質に関わる有償プロダクトを導入する際の参考になると思います。
How Data Observability Helps Ensure Data Quality for Retail
Acceldata社により、Data Observabilityが小売業のデータ品質の確保にどのように役立つかをまとめた記事が出ていました。
実際の小売業におけるデータ活用のユースケースから始まり、具体的にどんなシナリオでデータの信頼性を確認するかの実例も書かれており、参考になる方も多いと思います。
How to Generate Personalized Emails from your Snowflake CDP with ChatGPT, Snowpark, & Hightouch
phData社により、Snowflakeを中心とし、ChatGPT、Snowpark、Streanlit、HightouchでパーソナライズドされたEメールをどうやって生成するか、の概要とアーキテクチャをまとめた記事が出ていました。
今後はこういったChatGPTなどAIを組み込んだアーキテクチャが多くなると思いますので、一つの参考になると思います。
Data Extract/Load
Fivetran
Fivetranの最新のコネクタ情報がまとまったブログ
Fivetran社により、Fivetranの最新ののコネクタ情報がまとまったブログが出ていました。
Fivetranでロードしたデータ向けのモデルを集めたdbt packageも定期的にリリースされています!
Airbyte
データソースのスキーマ変更時の自動変換機能がリリース
詳細は私も掴めきれていないのですが、Airbyteでデータソースのスキーマ変更時に自動で検知し、ロード対応を行ってくれる機能がリリースされました。
同期対象のカラムを選択する機能がリリース
Airbyteで、UI上で同期するカラムをクリックすることで同期する・しないを切り替えることができる機能がリリースされました。
Data Warehouse/Data Lakehouse
全般
Snowflake
SnowflakeがNeevaを買収
SnowflakeがGenerative AIを用いた検索に強みを持つNeevaを買収したことを発表しました。
今後SnowflakeにどのようにNeevaの機能が組み込まれ、データクラウドでの検索周りがどう発展していくのか楽しみです!
ストアドプロシージャとUDFsのログメッセージとトレースデータを記録できるEvent Tableがパブリックプレビュー
先日のアップデートで、ストアドプロシージャとUDFsのログメッセージとトレースデータを記録できるEvent Tableがパブリックプレビューとなりました。
早速、@allllllllezさんが試されていてわかりやすい記事を書いていましたので、ぜひこちらの記事もご覧ください!
BigQuery
パーティショニングとクラスタリングに関するレコメンダーがPre-GA
過去30日間の対象プロジェクトのワークロードを分析し、パーティショニングとクラスタリングすべきカラムを提案してくれる機能がPre-GAとなりました。
パーティショニングやクラスタリングはBigQueryのコストやパフォーマンスチューニングで欠かせないので、過去のクエリ状況を分析して提案してもらえるのは非常にありがたいと思います!
DuckDB
DuckDBに関連する最新情報のまとめ記事
「THIS MONTH IN THE DUCKDB ECOSYSTEM: MAY 2023」というタイトルで、DuckDBに関連する最新情報のまとめ記事が出ていました。
Data Transform
dbt
dbtで定義したクエリをOpenAPI仕様のREST APIとして参照できるようにする「Jinjat」
dbtで定義したクエリについて、OpenAPI仕様のREST APIとして定義できるようにする「Jinjat」がリリースされていました。
昨今Streamlitなど、データウェアハウス上のデータを参照して構築するデータアプリケーションの概念が少しずつ広まりつつありますが、データアプリケーションには「事前のデータ変換・抽出するデータの定義」や「アプリケーションからデータを参照するAPIの定義」が必要になってくることが多いです。
この「データ変換」にdbt、「APIの定義」にOpenAPI、という組み合わせに着目して作られたOSSがJinjatです。
私も実際に触れて無く、ドキュメントの整備状況を見てもまだこれからなOSSという印象ですが、JinjatによりStreamlitのアプリをdbt projectから生成することもできそうなので、今後注目したいOSSです!
- 公式Doc
- Jinjatのドキュメント
- Jinjatを用いたChatGPT Pluginsの開発サンプル
dbt Cloud Metadata APIを改良したDiscovery APIがパブリックプレビュー
dbt Cloud上のジョブや各種モデル定義に関するメタデータを取得できるAPIとして元々dbt Cloud Metadata APIが提供されていましたが、今後は改良して「Discovery API」として提供していくと発表がありました。現在Discovery APIはパブリックプレビューです。
このアップデートについては、Monte Carlo、Hex、Atlan、といったdbtの主要なテクノロジーパートナーと連携しながら進めたようです。
将来的にはエラーが良く発生しているジョブの検知、処理に時間がかかっているパイプラインの検知、など幅広い用途に対応できるようにしていくとのことです。
dbt CloudのIDEに関する5月のアップデート&修正内容まとめ
dbt CloudのIDEについて、5月のアップデートと修正内容をまとめたページが公開されていました。
特に注目したいのは、「Lint via SQL Fluff is now available in beta (GA over the next 2-3 weeks)」ということで、IDE上でLinterとしてSQLFluffを使うことが出来るようになるみたいです!これで、チーム内でdbt Cloudを用いてデータ変換処理を開発する際、定めた規約に沿って開発がしやすくなりますね。
Business Intelligence
Tableau
Tableau 2023.2がまもなくリリース
Tableauは四半期に一度アップデートを行っているサービスですが、もうすぐ今年2回目のアップデートとして2023.2がリリース予定となります。
個人的には、GA4コネクタやS3コネクタが気になっています!
Notebook
Hex
自然言語で自動でSQLやPythonコードを作成してくれる「Magic AI-assist tool」がPublic Betaとして提供開始
HexはNotebook上でSQLやPythonなどを駆使して分析したりレポートを構築できるサービスですが、2023年5月4日に自然言語で自動でSQLやPythonコードを作成してくれる「Magic AI-assist tool」をPublic Betaとして提供開始しました。
裏側ではGPT-4が採用されているようです。
Data Catalog
Atlan
Monte Carloとの連携機能を発表
Data Observabilityのプラットフォームを提供するMonte Carloと、Atlanが連携する機能を発表しました。
この連携により、Atlan上でMonte Carloにより提供されるデータ品質に関する情報を閲覧することができるようです。例えば、Monte Carloによって検知されたデータインシデントをAtlanで見れるようになることで、Atlanを閲覧する一般ユーザー側でもデータの信頼性が担保されているかどうかを確認可能となります。
CastorDoc(旧Castor)
CastorがCastorDocに名称変更
CastorでCastorDocに名称変更し、ロゴも変更していました。
以下の記事に今後のビジョンなどがまとめられていますが、よりWikipediaのような皆で管理するドキュメント化の方向性に注力するようで、後述する「Knowledge Map」でドキュメントから指標までまとめて表示したりなど、他のデータカタログ製品にはない方向性なのが印象深いです!
Knowledge Mapの発表
各テーブルに関するドキュメントの内容から関連するKPIまでを一つの図上にマッピングしてみることが出来る「Knowledge Map」が発表されました。
データカタログ上でテキストベースで検索させるのではなく、一つの図から視覚的に欲しい情報を検索させつつ関連情報も並べて見せることができるので、よりビジネスユーザーの方には馴染みやすいのでは、と感じました!
下記のリンク先を見ると、Gifと併せてKnoledge Mapのことがわかるのでぜひご覧ください。
Data Activation (Reverse ETL)
Hightouch
Customer Studioで使用するデータをGUIベースで定義できる「Schemas」の発表
Hightouch上で、GUIベースで各テーブルやデータモデルを結合しCustomer Studio上で使用するデータを定義することができる「Schemas」が発表されました。
この機能により、Customer Studioで配信対象を絞り込んだり分析したりする、よりビジネス寄りの職種の方でもデータを定義しやすく出来るようになったと思います。一方で、下手にJOINがユーザー側で出来てしまうと意図せぬ形でデータが使われてしまうリスクもあると感じたので、どうやってガバナンスを担保していくかが個人的には気になりました。
Census
Censusで定義したワークフローをコードでGit管理できる「GitLink」の発表
CensusはReverseETLのツールで、基本的にはマーケターなどビジネス寄りの職種の方でも使えるようにGUIベースで操作を行うのが基本です。ただ、バージョン管理に少し悩むところがありました。
そういった課題を踏まえてか、Censusで定義したワークフローをコードでGit管理できる「GitLink」が発表されました。プルリクエスト発行時にCIパイプラインも実行してくれるようなので、より安定したCensusの運用が出来そうですね。
Data Quality・Data Observability
Great Expectations
2023年5月の最新情報まとめ
Great Expectationsについて、2023年5月の最新情報をまとめた記事が出ていました。
Data Orchestration
Dagster
DagsterがSeries Bで3300万ドルの資金調達を実施
Dagsterを開発しているElementl社が、Series Bで3300万ドルを資金調達したことを発表しました。
以下の記事では、Elementl社のFounderであるNick氏が、データエンジニアリングにおいて多種多様なツールやデータを管理すること複雑さを課題として挙げ、Dagsterがこの課題に対してどういった解決が出来るか、どういったビジョンを持った製品か、といったことがまとめられています。